检索结果

Select

1. 结合注意力机制的长文本分类方法

卢玲, 杨武, 王远伦, 雷子鉴, 李莹

计算机应用 2018, 38 (5): 1272-1277. DOI: 10.11772/j.issn.1001-9081.2017112652

摘要（2588）

PDF （946KB）（1132）

新闻文本常包含几十至几百条句子，因字符数多、包含较多与主题无关信息，影响分类性能。对此，提出了结合注意力机制的长文本分类方法。首先将文本的句子表示为段落向量，再构建段落向量与文本类别的神经网络注意力模型，用于计算句子的注意力，将句子注意力的均方差作为其对类别的贡献度，进行句子过滤，然后构建卷积神经网络（CNN）分类模型，分别将过滤后的文本及其注意力矩阵作为网络输入。模型用max pooling进行特征过滤，用随机dropout防止过拟合。实验在自然语言处理与中文计算（NLP&CC）评测2014的新闻分类数据集上进行。当过滤文本长度为过滤前文本的82.74%时，19类新闻的分类正确率为80.39%，比过滤前文本的分类正确率超出2.1%，表明结合注意力机制的句子过滤方法及分类模型，可在句子级信息过滤的同时提高长文本分类正确率。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于实体情感演化置信网的观点检测方法

卢玲, 杨武, 刘旭, 李言

计算机应用 2017, 37 (5): 1402-1406. DOI: 10.11772/j.issn.1001-9081.2017.05.1402

摘要（516）

PDF （800KB）（429）

社交网络评论文本存在评论主题缺失或情感特征缺失的问题，无法保证观点检测的性能，对此提出了建立实体情感演化贝叶斯置信网的方法。通过提取名词、动宾短语、动名词复合型定中结构短语三种域相关实体，提取域相关情感特征，用可变关联强度作为网络结构学习的约束条件，建立2阶依赖扩展贝叶斯网络，刻画实体、观点及情感特征的依赖关系，再通过实体及情感特征对观点极性进行推断。实验在自然语言处理与中文计算2016（NLP&CC2016）评测训练数据集的F值平均达70.8%，FAVOR和AGAINST两类正确率分别比仅包含情感特征的贝叶斯网络分类方法提高4.1个百分点和3.1个百分点。在5个Target评论测试集上的平均Micro-F为62.3%，优于该评测的平均水平。

参考文献 | 相关文章 | 多维度评价

Select

3. 结合语义扩展和卷积神经网络的中文短文本分类方法

卢玲, 杨武, 杨有俊, 陈梦晗

计算机应用 2017, 37 (12): 3498-3503. DOI: 10.11772/j.issn.1001-9081.2017.12.3498

摘要（520）

PDF （928KB）（870）

中文新闻标题通常包含一个或几十个词，由于字符数少、特征稀疏，在分类问题中难以提升正确率。为解决此问题，提出了基于Word Embedding的文本语义扩展方法。首先，将新闻标题扩展为（标题、副标题、主题词）构成的三元组，用标题的同义词结合词性过滤方法构造副标题，对多尺度滑动窗口内的词进行语义组合，提取主题词；然后，针对扩展文本构造卷积神经网络（CNN）分类模型，该模型通过max pooling及随机dropout进行特征过滤及防止过拟合；最后，将标题、副标题拼接为双词表示，与多主题词集分别作为模型的输入。在2017自然语言处理与中文计算评测（NLP&CC2017）的新闻标题分类数据集上进行实验。实验结果表明，用三元组扩展结合相应的CNN模型在18个类别新闻标题上分类的正确率为79.42%，比未经扩展的CNN模型提高了9.5%，且主题词扩展加快了模型的收敛速度，验证了三元组扩展方法及所构建CNN分类模型的有效性。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于多重映射的自动短文摘方法

卢玲, 杨武, 曹琼

计算机应用 2016, 36 (2): 432-436. DOI: 10.11772/j.issn.1001-9081.2016.02.0432

摘要（424）

PDF （860KB）（915）

传统自动文摘一般对字数没有明确限制,运用传统技术进行短文摘提取时,受字数限制,难以获取均衡的性能。针对该问题,提出一种多重映射的自动短文摘方法。通过计算关联度映射值、长度映射值、标题映射值和位置映射值,分别形成多个候选文摘句子集;再运用多重映射策略,将多个候选子集映射到文摘句子集中,同时使用提取文本中心句的方法提高召回率。实验表明,多重映射可在短文摘提取上获得稳定的性能。在NLP&CC2015评测中,该方法的ROUGE-1测试 F值达到0.49,ROUGE-2测试 F值达到0.35,均优于评测的平均水平,表明了该方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于内容的推荐与协同过滤融合的新闻推荐方法

杨武, 唐瑞, 卢玲

计算机应用 2016, 36 (2): 414-418. DOI: 10.11772/j.issn.1001-9081.2016.02.0414

摘要（740）

PDF （678KB）（1500）

针对基于内容的新闻推荐方法中用户兴趣多样性的缺乏问题和混合推荐方法存在的冷启动问题,提出一种基于内容与协同过滤融合的方法进行新闻推荐。首先利用基于内容的方法发现用户既有兴趣;再用内容与行为的混合相似度模式,寻找目标用户的相似用户群,预测用户对特征词的兴趣度,发现用户潜在兴趣;然后将用户既有兴趣与潜在兴趣融合,得到兼具个性化和多样性的用户兴趣模型;最后将候选新闻与融合模型进行相似度计算,形成推荐列表。实验结果显示,与基于内容的推荐方法相比,所提方法的F-measure和整体多样性Diversity均有明显提高;与混合推荐方法相比,性能相当,但候选新闻无需耗时积累足够的用户点击量,不存在冷启动问题。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于用户角色定位的微博热点话题检测方法

杨武李阳卢玲

计算机应用 2013, 33 (11): 3076-3079.

摘要（651）

PDF （642KB）（429）

针对在海量微博数据中提取热点话题效率较低的问题，在对用户角色分类的基础上，提出了一种新的热点话题检测方法。首先，根据用户关注度进行用户角色定位，过滤掉部分用户的噪声数据；其次，采用结合语义相似度的TF-IDF函数计算特征权重，降低语义表达形式带来的误差；然后，用改进的Single-Pass聚类算法进行话题聚类，提取出微博话题；最后，根据微博转发数、评论数等对话题热度进行评估排序，从而发现热点话题。实验表明，所提出的方法使漏检率和误检率分别平均降低12.09%和2.37%，有效地提高了话题检测的正确率，验证了该方法的可行性。